<!DOCTYPE html>
<html>

<head>
	<meta charset="utf-8">
	<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1">
	<meta name="theme-color" content="#33474d">
	<title>如何删除脚本中的汉字 | 失落的乐章</title>
	<link rel="stylesheet" href="/css/style.css" />
	
      <link rel="alternate" href="/atom.xml" title="失落的乐章" type="application/atom+xml">
    
</head>

<body>

	<header class="header">
		<nav class="header__nav">
			
				<a href="/archives" class="header__link">Archive</a>
			
				<a href="/tags" class="header__link">Tags</a>
			
				<a href="/atom.xml" class="header__link">RSS</a>
			
		</nav>
		<h1 class="header__title"><a href="/">失落的乐章</a></h1>
		<h2 class="header__subtitle">技术面前，永远都是学生。</h2>
	</header>

	<main>
		<article>
	
		<h1>如何删除脚本中的汉字</h1>
	
	<div class="article__infos">
		<span class="article__date">2017-10-12</span><br />
		
		
			<span class="article__tags">
			  	<a class="article__tag-link" href="/tags/Linux/">Linux</a> <a class="article__tag-link" href="/tags/正则表达式/">正则表达式</a>
			</span>
		
	</div>

	

	
		<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;今天遇到个问题，脚本中参杂了中文汉字，现在需要删除所有汉字。以前在脚本中删除一两个汉字，那时手到擒来，匹配所有汉字还是第一次。</p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;汉字在计算机系统里是按照一定的编码格式表示的，就是常说的 GB2312、GB18030等，只要符合这个编码格式的就都是汉字了。</p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;从GB2312-1980编码开始，汉字都是采用双字节编码。为 了与系统中基本的ASCII字符集区分开，所有汉字编码的每个字节的第一位都是1。GB2312的汉字编码规则为：第一个字节的值在0xb0到0xF7之间，第二个字节的值在0xAO到0xFE直接。由于GB13000是对GB2312的扩展，所以也被称为GBK。</p>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;那么用sed把符合这些编码格式的用空替代就解决问题了。</p>
<p>sed的命令表达式：</p>
<figure class="highlight bash"><table><tr><td class="gutter"><pre><div class="line">1</div></pre></td><td class="code"><pre><div class="line">sed -r <span class="string">"s/[\x81-\xFE][\x40-\xFE]//g"</span> file</div></pre></td></tr></table></figure>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;执行以后发现有问题，原来系统的编码设置问题，更新一下：</p>
<figure class="highlight bash"><table><tr><td class="gutter"><pre><div class="line">1</div></pre></td><td class="code"><pre><div class="line">LANG=C sed -r <span class="string">"s/[\x81-\xFE][\x40-\xFE]//g"</span> file</div></pre></td></tr></table></figure>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;C代表英文环境ASCII编码格式，再次运行，一切OK。</p>

	

	
		<span class="different-posts"><a href="/2017/10/12/1. Linux 基础/58. 如何删除脚本中的汉字/" onclick="window.history.go(-1); return false;">⬅️ Go back </a></span>

	

</article>

	</main>

	<footer class="footer">
	<div class="footer-content">
		
	      <div class="footer__element">
	<p>Hi there, <br />welcome to my Blog glad you found it. Have a look around, will you?</p>
</div>

	    
	      <div class="footer__element">
	<h5>Check out</h5>
	<ul class="footer-links">
		<li class="footer-links__link"><a href="/archives">Archive</a></li>
		
		  <li class="footer-links__link"><a href="/atom.xml">RSS</a></li>
	    
		<li class="footer-links__link"><a href="/about">about page</a></li>
		<li class="footer-links__link"><a href="/tags">Tags</a></li>
		<li class="footer-links__link"><a href="/categories">Categories</a></li>
	</ul>
</div>

	    

		<div class="footer-credit">
			<span>© 2017 失落的乐章 | Powered by <a href="https://hexo.io/">Hexo</a> | Theme <a href="https://github.com/HoverBaum/meilidu-hexo">MeiliDu</a></span>
		</div>

	</div>


</footer>



</body>

</html>
